Claude 4

Opus 4.1

https://gyazo.com/94158948f7aaa8a71c1a60dfd1eb8fc0

Agentic codingが伸びるのは嬉しいが100ドル払わないと使えない

前回（下図）と数字の出し方が違うぞ。どういうこと？

https://gyazo.com/b93660c189c4472f864077101abd2659

AIエージェント構築のための追加のAPI

MCPコネクタ

ファイルAPI

プロンプトキャッシュ（最大1h）

コード実行

Opus 4とSonnet 4はSWE benchでcodex-1を超える

https://gyazo.com/d5a460f754d53a30e71fac9e15fa5fdd

o3.icon

Agentic Coding

SWE-bench Verified

計測対象：既存OSSリポジトリのバグ修正パッチを自動生成できるか

基準：①指示＝GitHub Issue②モデルが diff を出力③pytest が全部通れば Pass

Agentic Terminal Coding

計測対象：ターミナルをフル操作して複数ステップの作業（ビルド・データDL・サーバ起動など）を完遂できるか

基準：①指示＝英語でタスク説明②モデルが bash 操作・エディタ操作を自律実行③同梱の test script が OK なら Pass

Opus 4の方がSonnet4よりだいぶ高い基素.icon

https://gyazo.com/b93660c189c4472f864077101abd2659

Asanaとインテグレーションのデモ

https://youtu.be/oqUclC3gqKs